连续控制设置中的复杂顺序任务通常需要代理在其状态空间中成功遍历一组“窄段”。通过以样本有效的方式解决具有稀疏奖励的这些任务对现代钢筋(RL)构成了挑战,由于问题的相关的长地平性,并且在学习期间缺乏充足的正信号。已应用各种工具来解决这一挑战。当可用时,大型演示可以指导代理探索。后威尔同时释放不需要额外的信息来源。然而,现有的战略基于任务不可行的目标分布探索,这可以使长地平线的解决方案不切实际。在这项工作中,我们扩展了后视可释放的机制,以指导沿着一小组成功示范所暗示的特定任务特定分布的探索。我们评估了四个复杂,单身和双臂,机器人操纵任务的方法,对抗强合适的基线。该方法需要较少的演示来解决所有任务,并且达到明显更高的整体性能作为任务复杂性增加。最后,我们研究了提出的解决方案对输入表示质量和示范人数的鲁棒性。
translated by 谷歌翻译
Recent work has shown that fine-tuning large pre-trained language models on a collection of tasks described via instructions, a.k.a. instruction-tuning, improves their zero and few-shot generalization to unseen tasks. However, there is a limited understanding of the performance trade-offs of different decisions made during the instruction-tuning process. These decisions include the scale and diversity of the instruction-tuning benchmark, different task sampling strategies, fine-tuning with and without demonstrations, training using specialized datasets for reasoning and dialogue, and finally, the fine-tuning objectives themselves. In this paper, we characterize the effect of instruction-tuning decisions on downstream task performance when scaling both model and benchmark sizes. To this end, we create OPT-IML Bench: a large benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated into task categories from 8 existing benchmarks, and prepare an evaluation framework to measure three types of model generalizations: to tasks from fully held-out categories, to held-out tasks from seen categories, and to held-out instances from seen tasks. Through the lens of this framework, we first present insights about instruction-tuning decisions as applied to OPT-30B and further exploit these insights to train OPT-IML 30B and 175B, which are instruction-tuned versions of OPT. OPT-IML demonstrates all three generalization abilities at both scales on four different evaluation benchmarks with diverse tasks and input formats -- PromptSource, FLAN, Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly outperform OPT on all benchmarks but is also highly competitive with existing models fine-tuned on each specific benchmark. We release OPT-IML at both scales, together with the OPT-IML Bench evaluation framework.
translated by 谷歌翻译
希望以优先的,有序的方式相结合,因为它允许模块化设计并通过知识传输来促进数据重用。在控制理论中,优先的组合物是通过空空间控制实现的,其中低优先级控制动作被投影到高优先级控制动作的空空间中。这种方法目前无法用于加强学习。我们为增强学习提出了一个新颖的,任务优先的组成框架,其中涉及一个新颖的概念:强化学习政策的冷漠空间。我们的框架有可能促进知识转移和模块化设计,同时大大提高数据效率和增强学习代理的数据重用。此外,我们的方法可以确保高优先级的限制满意度,这使得在机器人技术等安全 - 关键领域中学习有望。与零空间的控制不同,我们的方法允许通过在最初的复合策略构建后在高级政策的无差异空间中在线学习来学习复合任务的全球最佳策略。
translated by 谷歌翻译
任务(SOT)控件允许机器人同时实现根据错误空间中(在)平等约束方面提出的许多优先目标。由于这种方法在每个时间步长求解了一系列二次程序(QP),而无需考虑任何时间状态的演变,因此适用于处理局部干扰。但是,其限制在于处理需要非二次目标才能实现特定目标的情况,以及应对控制干扰的情况,需要在本地进行次优的行动。最近的作品通过利用有限状态机器(FSM)来解决这一缺点,以使机器人不会陷入本地最小值的方式组成任务。然而,反应性和模块化之间的内在折衷是FSM的表征使它们在动态环境中定义反应性行为不切实际。在这封信中,我们将SOT控制策略与行为树(BTS)相结合,该任务切换结构在反应性,模块化和可重复使用方面解决了FSM的某些局限性。 Franka Emika Panda 7-DOF操纵器的实验结果显示了我们框架的稳健性,该框架使机器人可以从SOT和BTS的反应性中受益。
translated by 谷歌翻译
在以任务为导向的对话系统中采用预训练的语言模型已导致其文本生成能力的显着增强。但是,由于大量可训练的参数,这些架构的使用缓慢,有时可能无法产生各种响应。为了解决这些局限性,我们提出了两个模型,其中包含用于响应选择的辅助任务 - (1)将干扰因素与地面真理反应区分开,(2)区分合成响应与地面真相标签。他们在Multiwoz 2.1数据集上获得最新的结果,其组合得分为107.5和108.3,并且超过了基线,具有三倍的参数。我们发布可再现的代码和检查点,并讨论将辅助任务应用于基于T5的架构的效果。
translated by 谷歌翻译
我们提出了一种整体方法,用于构建一个可实现的自然语言分类系统,以实现现实世界中的内容适度。这样一个系统的成功依赖于一系列精心设计和执行的步骤,包括内容分类法和标签说明的设计,数据质量控制,主动学习管道以捕获罕见事件以及使模型可靠的各种方法并避免过度拟合。我们的审核系统经过培训,可以检测一系列不希望的内容,包括性内容,可恨的内容,暴力,自我伤害和骚扰。这种方法概括为各种不同的内容分类法,可用于创建优于现成模型的高质量内容分类器。
translated by 谷歌翻译
软件体系结构定义了大型计算系统的蓝图,因此是设计和开发工作的关键部分。在移动机器人的背景下,对此任务进行了广泛的探索,从而导致了大量参考设计和实现。由于软件体系结构定义了实现所有组件的框架,因此自然是移动机器人系统的一个非常重要的方面。在本章中,我们概述了特定问题域(移动机器人系统)对软件框架强加的要求。我们讨论了一些当前的设计解决方案,提供了有关共同框架的历史观点,并概述了未来发展的方向。
translated by 谷歌翻译
传感器是将物理参数或环境特征(例如温度,距离,速度等)转换为可以通过数字测量和处理以执行特定任务的信号的设备。移动机器人需要传感器来测量其环境的属性,从而允许安全导航,复杂的感知和相应的动作以及与填充环境的其他代理的有效相互作用。移动机器人使用的传感器范围从简单的触觉传感器(例如保险杠)到复杂的基于视觉的传感器,例如结构化灯相机。所有这些都提供了可以由机器人计算机处理的数字输出(例如,字符串,一组值,矩阵等)。通常通过使用传感器中包含的数字转换器(ADC)的类似物来离散一个或多个模拟电信号来获得此类输出。在本章中,我们介绍了移动机器人技术中最常见的传感器,并提供了其分类法,基本特征和规格的介绍。对功能和应用程序类型的描述遵循一种自下而上的方法:在描述现实世界传感器之前,介绍了传感器所基于的基本原理和组件,这些传感器通常基于多种技术和基本设备。
translated by 谷歌翻译
大型语言模型经常经过数十万个计算天的训练,已经显示出零和少数学习的显着功能。鉴于它们的计算成本,如果没有大量资本,这些模型很难复制。对于通过API可用的少数产品,没有访问完整的模型权重,因此很难学习。我们提供开放训练的预训练变压器(OPT),这是一套仅解码器预训练的变压器,范围从12500万到175b参数,我们旨在与感兴趣的研究人员完全和负责任地分享。我们表明,OPT-175B与GPT-3相当,而仅需要1/7碳足迹才能开发。我们还释放了日志,详细介绍了我们面临的基础架构挑战,以及用于尝试所有发布模型的代码。
translated by 谷歌翻译
对深度学习架构应用于表格数据的兴趣越来越兴趣。最先进的解决方案之一是TabTransformer,它包含注意机制,以更好地跟踪分类功能之间的关系,然后使用标准MLP来输出其最终登录。在本文中,我们提出了对原始TabRansformer的多次修改,对于三个单独的数据集,对于具有超过1%的AUROC增益的三个单独的数据集,对二进制分类任务进行更好地执行。由Gated MLP的启发,线性投影在MLP块中实现,并测试多个激活功能。我们还评估培训期间特定超参数的重要性。
translated by 谷歌翻译